Dans le cadre de ce projet je vais réaliser une analyse exploratoire des données sur les arbes de la ville de Paris dans le cadre du programme "Végétalisons la ville". L'objectif est d'optimiser les trajets nécessaires pour entretenir ces arbres.
Un environnement virtuel Python permet d'avoir des installations de Python isolées du système et séparées les unes des autres. Cela permet de gérer plusieurs projets sur sa machine de développements, certains utilisant des modules de versions différentes, voir même des versions différentes de Python. Nous allons utiliser le langage Python, et Notebook Jupyter. Nous allons aussi utiliser les bibliothèques usuelles d’exploration et analyse de données NumPy : effectuer des calculs scientifiques (statistiques, algèbre linéaire) Pandas : et manipuler des séries et tableaux de données volumineuses et complexes Matplotlib, Seaborn et Plotly : générer des graphiques
11 variables Qualitatives 7 variables Quantitatives
Variables inutiles pour l'analyse de données : 'id' : identifiant, valeurs uniques 'numero' : uniquement des valeurs manquantes 'type_emplacement' : une seule valeur (Arbre) 'complement_addresse' : pourcentage de valeurs manquantes très élevées - plus de 80% de données manquantes 'id_emplacement' : inutile pour l'analyse 'variete' : valeurs manquantes supérieures à 80%, il sera difficile de venir corriger ces données.
valeur minimum de circonference_cm = 0, ce qui semble impossible valeur maximum de circonference_cm = 250255, ce qui semble impossible valeur minimum de hauteur_m = 0, ce qui semble impossible valeur maximum de hauteur_m = 881818, ce qui semble impossible
Après des recherches sur Internet : La circonférence la plus élevée a est de 13.9 m La hauteur la plus élevée est de 66.6 m
Distplot est une fonction qui combine la fonction matplotlib hist (avec calcul automatique d'une bonne taille de bin par défaut) avec les fonctions seaborn kdeplot() et rugplot().
On voit clairement une corrélation entre circonférence / hauteur des arbres
A : Adulte J : Jeune M : Mature JA : Jeune-Adulte
Nous remaqrquons que certains arbres ont une taille anormale par rapport à leur stade de développement. Il serait important de les soingner
Pour les colonnes non numériques, les informations remontées sont : le nombre total de valeurs le nombre de valeurs différentes la valeur la plus fréquente sa fréquence d'apparition
Word Cloud est une technique de visualisation de texte qui est utilisée nativement pour visualiser les mots les plus fréquents. Nous allons utiliser cette technique pour visualiser les mots les plus fréquents pour chaque variable catégorielle.
Suggestions pour améliorer: - Re-mesurer les arbres avec des valeurs aberrantes - Envoyez le bon équipement au bon endroit selon la taille des arbres, leur hauteur, ou stade de développement - Le nombre d'arbres par arrondissement peut être une information utile lors de l'organisation des tournées d'entretiens - On peut planifier l'ordre d'entretien des arrondissements en fonction de l'enchainement souhaité - Selon l'hauteur, la circonférence et le stade de développement des arbes, nous pouvons choisir les outiles nécessaires lors de l'entretien - Grace aux coordonées GPS. On peut visualiser directement la localisation des arbres par stade de développement. - Soigner les arbres avec de retard de croissance selon la relation entre hauteur, circonférence et stade de développement.